AI術語「Token」獲中國內地官方正式定名「詞元」🤖

人工智能熱潮席捲全球，一個關鍵術語的中文譯名之爭終於落幕。今年3月，內地官方正式將AI大型語言模型（大模型）中的核心單位「Token」，定名為「詞元」，為業界長久以來的譯名混亂畫上句號。

📋 官方定名始末

今年3月24日，中國政府網轉發人民日報援引國家數據局的文章，文中以「我們日均詞元調用量突破140萬億」一句，正式確立「詞元」為Token的中文規範譯名。國家數據局局長劉烈宏在中國發展高層論壇2026年年會上亦明確指出，詞元是「大模型處理訊息的最小單元」，具備「可計量、可定價、可交易」三大特徵，是連接技術供應與商業需求的「結算單位」。

此前，Token在中文世界有「代幣」、「令牌」、「標記」等多種叫法，莫衷一是，令普通市民難以理解。據詞典應用後台數據顯示，今年2月下旬起「Token」的每日搜尋量急升，最高一天達7.7萬次，較去年日均搜尋量高出逾1,850%。

🔍 「詞元」究竟是甚麼？

詞元是AI理解人類語言的最小單位。當用戶輸入一段文字，大模型會先將文字拆解成一個個詞元，再將這些詞元轉化為數值進行運算，最後逐一生成回應。換言之，無論是與AI對話、叫AI撰寫電郵或生成程式碼，所有輸入與輸出均以詞元數量計算。

觸發今次討論熱潮的，是一宗廣受關注的新聞：一名14歲少年憑藉在AI平台上「養殖龍蝦」，奪得100億個Token獎勵，令不少市民首度注意到這個概念。目前中國內地的日均詞元調用量已突破140萬億，僅三個月內便急增逾四成，反映AI產業正進入高速落地階段。

✂️ 詞元如何切分？

文字被拆解成詞元的方式，因模型而異。各大AI公司在訓練模型前，均以龐大語料庫訓練專屬的「分詞器」（Tokenizer），一旦訓練完成，切分規則即固定不變，並非全業界劃一的通用標準。目前主流方法包括OpenAI帶頭推廣的「字節對編碼」（Byte Pair Encoding，BPE），以及Google旗下BERT採用的WordPiece，兩者均屬「次詞元分詞」技術——即將文字拆解成有意義的字詞片段、前綴或後綴，而非機械地以整個單詞為單位劃分。

正因切分方式因模型而異，坊間流傳的換算比率只屬估算，並非絕對數字。英文方面，平均每個詞元約對應0.75個英文字，即每1,000個詞元約能容納750個英文單字，這是OpenAI公開工具所示的通用估算，實際數字仍視乎詞語長度及標點符號而有所浮動。中文情況則更為複雜：以百度、阿里等內地大模型為例，訓練語料中包含大量中文，一般一個漢字對應一個詞元；但在ChatGPT等英文優先的模型中，中文往往被拆分得較為零碎，一個漢字有時需要1.5至2個詞元方能表達。

💰 與手機流量如出一轍

詞元的收費邏輯，與市民熟悉的手機數據流量極為相近——用得愈多，費用愈高。目前各大AI服務供應商均以詞元作為計費單位，用戶購買AI服務套餐時，購入的正是一定數量的詞元使用配額。

========
內容由 Ai Marketer HK 提供

#AIMarketerHK #DigitalMarketing #token

View original Facebook post